Home » Lumea digitală » Un sistem de Inteligență Artificială poate citi pe buze în mai multe limbi

Un sistem de Inteligență Artificială poate citi pe buze în mai multe limbi

Un sistem de Inteligență Artificială poate citi pe buze în mai multe limbi
Sursa foto: Shutterstock
Publicat: 03.12.2022

În ultimii ani, tehnicile de învățare profundă au obținut rezultate remarcabile în numeroase sarcini de procesare a limbajului și a imaginilor. Printre acestea se numără și recunoașterea vizuală a vorbirii (VSR), adică, pe înțelesul tuturor, Inteligența Artificială (AI) care poate citi pe buze.

În timp ce unii algoritmi de învățare profundă au obținut rezultate foarte promițătoare în sarcinile VSR, aceștia au fost instruiți în primul rând pentru a detecta vorbirea în limba engleză, deoarece majoritatea seturilor de date de antrenament existente includ doar vorbire în limba engleză.

Acest lucru limitează baza lor potențială de utilizatori la persoanele care trăiesc sau lucrează în contexte vorbitoare de limba engleză.

Cercetătorii de la Imperial College London, din Anglia, au dezvoltat recent AI-ul care poate citi pe buze în mai multe limbi.

Cum a fost realizat AI-ul care poate citi pe buze în mai multe limbi?

Acest model, descris într-o lucrare publicată în Nature Machine Intelligence, s-a descoperit că depășește unele modele propuse anterior antrenate pe seturi de date mult mai mari.

„Recunoașterea vizuală a vorbirii (VSR) a fost unul dintre subiectele principale ale tezei mele de doctorat”, a declarat Dr, Pingchuan Ma, absolvent al Imperial College, care a efectuat studiul.

„În timpul studiilor, am lucrat pe mai multe subiecte, de exemplu, explorând cum să combin informațiile vizuale cu audio pentru recunoașterea audio-vizuală a vorbirii și cum să recunosc vorbirea vizuală independent de poziția capului participanților. Mi-am dat seama că marea majoritate a literaturii existente s-a ocupat doar de limba engleză”, a explicat el.

Obiectivul cheie al studiului realizat de Ma și colegii săi a fost să antreneze un model de învățare profundă pentru a recunoaște vorbirea în alte limbi decât engleza din mișcările buzelor vorbitorilor și apoi să compare performanța acestuia cu cea a altor modele antrenate să recunoască vorbirea în limba engleză.

Modelul creat de cercetători este similar cu cel introdus de alte echipe în trecut, dar unii dintre hiper-parametrii săi au fost optimizați, setul de date a fost mărit (adică, mărit prin adăugarea unor versiuni sintetice, ușor modificate de date) și au fost utilizate funcții suplimentare, notează Tech Xplore.

Un model mai eficient

„Am arătat că putem folosi aceleași modele pentru a antrena modele VSR în alte limbi”, a explicat Ma.

„Modelul nostru preia imagini brute ca intrare, fără a extrage nicio caracteristică, apoi învață automat ce caracteristici utile să extragă din aceste imagini pentru a finaliza sarcinile VSR. Principala noutate a acestei lucrări este că antrenăm un model pentru a efectua VSR și, de asemenea, adăugăm câteva metode suplimentare de creștere a datelor și funcții de pierdere”, continuă cercetătorul.

În evaluările inițiale, modelul creat de Ma și colegii săi a funcționat remarcabil de bine, depășind alte modele VSR antrenate pe seturi de date mult mai mari, chiar dacă a necesitat mai puține date originale de antrenament. Așa cum era de așteptat, totuși, AI-ul care poate citi pe buze nu a funcționat la fel de bine ca modelele de recunoaștere a vorbirii în limba engleză, în principal din cauza seturilor de date mai mici disponibile pentru instruire.

„Am obținut rezultate de ultimă generație în mai multe limbi prin proiectarea cu atenție a modelului, mai degrabă decât prin simpla utilizare a seturi de date mai mari sau modele mai mari, care este tendința actuală în literatură”, a spus Ma.

„Cu alte cuvinte, am arătat că modul în care este proiectat un model este la fel de important pentru performanța sa ca creșterea dimensiunii acestuia sau utilizarea mai multor date de antrenament. Acest lucru poate duce la o schimbare în modul în care cercetătorii încearcă să îmbunătățească modelele VSR”, a adăugat Ma.

Către ce ar putea duce această cercetare?

Ma și colegii săi au arătat că se pot obține performanțe de ultimă generație în sarcinile VSR prin proiectarea cu atenție a modelelor de învățare profundă, în loc să utilizeze versiuni mai mari ale aceluiași model sau să colecteze date suplimentare de antrenament, ceea ce este atât costisitor, cât și consumator de timp. În viitor, munca lor ar putea inspira alte echipe de cercetare să dezvolte modele VSR alternative care pot recunoaște citi pe buze în mod eficient și în alte limbi în afară de engleză.

„Unul dintre principalele domenii de cercetare care mă interesează este modul în care putem combina modelele VSR cu recunoașterea vocală existentă (numai audio),” a adăugat Ma.

„Sunt interesat în special de modul în care aceste modele pot fi ponderate dinamic, adică de modul în care modelul poate afla pe ce model ar trebui să se bazeze în funcție de zgomot. Cu alte cuvinte, într-un mediu zgomotos, un model audio-vizual ar trebui să se bazeze mai mult pe flux vizual, dar atunci când regiunea gurii este acoperită, ar trebui să se bazeze mai mult pe fluxul audio. Modelele existente sunt în esență blocate odată ce sunt antrenate și nu se pot adapta la schimbările din mediu”, a conchis el.

Vă recomandăm să citiți și:

Traficul de la orele de vârf ar putea fi descongestionat cu Inteligență Artificială

Dispozitivele Bluetooth au o vulnerabilitate care permite hackerilor să acceseze locația utilizatorilor

Amazon intensifică utilizarea roboților, dar susține că are în continuare nevoie de oameni

Ochelarii VR care te omoară pe loc dacă mori în joc au fost inventați

Ștefan Trepăduș
Ștefan Trepăduș
Ștefan Trepăduș este blogger începând cu anul 2009, având experiență și în domeniile publicitate și jurnalism. Este pasionat de marketing și de tehnologie, dar cel mai mult îi place să știe lucruri, motiv pentru care a fost atras de Descopera.ro. citește mai mult
Urmărește DESCOPERĂ.ro pe
Google News și Google Showcase
Cele mai noi articole
Dovezile găurilor negre primordiale s-ar putea ascunde chiar și în obiectele obișnuite de pe Pământ
Dovezile găurilor negre primordiale s-ar putea ascunde chiar și în obiectele obișnuite de pe Pământ
Aproape 30% din microplastice provin dintr-o sursă extrem de neglijată
Aproape 30% din microplastice provin dintr-o sursă extrem de neglijată
Amprente vechi de 1,5 milioane de ani a două specii diferite de strămoși umani, descoperite în același loc
Amprente vechi de 1,5 milioane de ani a două specii diferite de strămoși umani, descoperite în același loc
Jake Gyllenhaal, de la adolescentul tulburat din Donnie Darko, la jurnalistul obsedat de a-l prinde pe criminalul în serie din Zodiac. „Nu asculta ce spune nimeni, cu excepția persoanelor care te încurajează”
Jake Gyllenhaal, de la adolescentul tulburat din Donnie Darko, la jurnalistul obsedat de a-l prinde pe criminalul în serie ...
Hugh Jackman, un superstar cu suflet mare. „Mi-aș vinde sufletul pentru o cauză bună”
Hugh Jackman, un superstar cu suflet mare. „Mi-aș vinde sufletul pentru o cauză bună”
Medicii sunt uimiți de tratamentul care face creierii morți să prezinte semne de viață
Medicii sunt uimiți de tratamentul care face creierii morți să prezinte semne de viață
„Schema bebelușilor”: Ce vrea să facă un miliardar cu ovulele donate de femei?
„Schema bebelușilor”: Ce vrea să facă un miliardar cu ovulele donate de femei?
Test de cultură generală. Ce sunt rechinii: pești sau mamifere?
Test de cultură generală. Ce sunt rechinii: pești sau mamifere?
Imagini incredibile cu Mercur, surprinse de sonda BepiColombo
Imagini incredibile cu Mercur, surprinse de sonda BepiColombo
Ucraina nu se va „mulțumi cu niciun fel de alternative” la aderarea la NATO
Ucraina nu se va „mulțumi cu niciun fel de alternative” la aderarea la NATO
Anglia aprobă un medicament revoluționar pentru o formă rară de cancer
Anglia aprobă un medicament revoluționar pentru o formă rară de cancer
Cuplurile care locuiesc separat trăiesc mai bine, arată un studiu
Cuplurile care locuiesc separat trăiesc mai bine, arată un studiu
Constituţia din Transilvania care i-a marginalizat pe români mai bine de 150 de ani
Constituţia din Transilvania care i-a marginalizat pe români mai bine de 150 de ani
Un exemplar din cea mai rară specie de balene din lume a fost disecat în premieră mondială
Un exemplar din cea mai rară specie de balene din lume a fost disecat în premieră mondială
Atenție cât și cum decorați de Crăciun! Luminițele ar putea încetini conexiunea WiFi
Atenție cât și cum decorați de Crăciun! Luminițele ar putea încetini conexiunea WiFi
Cea mai caldă lună noiembrie din istoria măsurătorilor din Spania
Cea mai caldă lună noiembrie din istoria măsurătorilor din Spania
O femeie a fost condamnată la închisoare pe viață după ce și-a închis iubitul într-o valiză
O femeie a fost condamnată la închisoare pe viață după ce și-a închis iubitul într-o valiză
Care este ruda lui T. Rex care mai trăiește și astăzi? S-a ascuns la vedere timp de foarte mulți ani!
Care este ruda lui T. Rex care mai trăiește și astăzi? S-a ascuns la vedere timp de foarte mulți ani!